Amazon Omics Analytics の Variant Store へファイルの一括インポートができるようになりました
Amazon Omics Analytics には Variant Store があり、バリアントファイル(VCF, gVCF)を保存し管理できます。このストアにファイルを保存するにはインポート操作が必要になります。
従来は1度にインポートできるバリアントファイルの数は1ファイルのみでした。そのため複数のファイルをインポートするには手間と時間がかかりました。
今回のアップデートで最大1000ファイルまで同時にインポートできるようになり、一度に大量のバリアントファイルをインポートできるようになりました。
Inventory icons created by Freepik - Flaticon
なにが嬉しいのか
機能面
- 従来は1度にインポートできるファイル数は1ファイルのみでした
- 複数のバリアントファイル(VCF, gVCF)をインポートするのには手間と時間がかかる
- 今回のアップデートでバリアントファイルの一度にインポートできるファイル数が1000まで拡張された
- まとめてバリアントファイルをインポートできるように改善された
- マネージメントコンソールからの操作で同時にインポートできるファイル数は10個までに制限されている
- 11ファイル以上を同時にインポートするには AWS CLI または SDK からの実行が必要
サービスクォータの変更点
- 従来
Maximu Files per import Job
の項目でバリアントファイルと、アノテーションファイルのインポート数制限は共通項目だった - 今回のアップデートで各ファイル毎のクォータに分離され、以下の2項目となった
Maxium Files per Variant Import Job
- 制限数は1から1000へと拡張されました(本件のアップデート内容)
Maxium Files per Annotation Import Job
- 制限数は1のままである
確認してみた
現在はサービスクォータのMaxium Files per Variant Import Job
の値から1000まで拡張されたことを確認できます。
従来のサービスクォータはMaximu Files per import Job
という名前でアノテーションファイルと、バリアントファイルのインポートジョブの最大値が共通化されていました。今回のアップデートでMaxium Files per Variant Import Job
とMaxium Files per Annotation Import Job
の2つの項目に分離し、バリアントファイルのインポート数だけ上限が拡張されています。
証拠となるものは過去のキャプチャしか見つけられませんでした。青枠の箇所を過去のサービスクォータ値のとして参考にしてください。
試してみた
実際に複数のバリアントファイルをインポートできるのか確認してみます。
大量の VCF ファイルが欲しかったのでシロイヌナズナ(Arabidopsis thaliana)のデータを以下のリンクからダウンロードしました。Variant Store へインポートするために S3 へアップロードしておきます。
Genome editing in plants using the compact editor CasΦ
マネージメントコンソールからの操作
マネージメントコンソールから S3 に保存済みのバリアントファイルをインポートしてみます。インポート操作画面からわかることはマネージメントコンソールからは10ファイルまでに制限されているようです。
従来はAdd another
ボタンがなく1ファイルしか指定できませんでした。
Add another
ボタンを押して10ファイルまでは S3 URI を指定できるためインポートジョブを実行してみました。
インポート結果です。10ファイル一括インポートできました。
最大1000ファイルまで同時インポート可能とのことですが、マネージメントコンソールからは10ファイルまでしかできないことがわかりました。
AWS CLI からの操作
API を使ったインポート操作であれば11ファイル以上のインポートできるのか確認してみます。--items
に11ファイル分の S3 URI を指定することになりました。
aws omics start-variant-import-job \ --destination-name arabidopsis_thaliana \ --role-arn arn:aws:iam::123456789012:role/service-role/OmicsAnalyticsServiceRole \ --items \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263772_rdr6_nCasphi_U6PDS3gR10_line1_T2_transgenefree_albino_raw_GAKT_indels.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263772_rdr6_nCasphi_U6PDS3gR10_line1_T2_transgenefree_albino_raw_GAKT_snps.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263772_rdr6_nCasphi_U6PDS3gR10_line1_T2_transgenefree_albino_raw_Strelka_Variants.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263773_rdr6_nCasphi_U6PDS3gR10_line2_T2_transgenefree_albino_raw_GAKT_indels.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263773_rdr6_nCasphi_U6PDS3gR10_line2_T2_transgenefree_albino_raw_GAKT_snps.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263773_rdr6_nCasphi_U6PDS3gR10_line2_T2_transgenefree_albino_raw_Strelka_Variants.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263774_rdr6_nCasphi_U6PDS3gR10_line3_T2_transgenefree_albino_raw_GAKT_indels.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263774_rdr6_nCasphi_U6PDS3gR10_line3_T2_transgenefree_albino_raw_GAKT_snps.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263774_rdr6_nCasphi_U6PDS3gR10_line3_T2_transgenefree_albino_raw_Strelka_Variants.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263775_rdr6_plant1_raw_GAKT_indels.vcf.gz \ source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263775_rdr6_plant1_raw_GAKT_snps.vcf.gz
インポートの結果はマネージメントコンソールから確認します。11ファイルインポートできています。
1000ファイルを同時にインポートする場合は、S3 URI を指定するのが手間なので所定の S3 バケットにアップロードした VCF ファイルをaws s3 ls
などで取得した結果を加工し、AWS CLI か SDK に渡す方法をとることになるのではないかと思います。
おわりに
今回のアップデートによりバリアントファイルのインポート作業の時間が大幅に削減され、より効率的に Omics Analytics の Variant Store へインポート作業をできるようになりました。ただし、AWSマネージメントコンソールからの操作で同時にインポートできるファイル数には制限がありました。11ファイル以上を一度にインポートする場合は、AWS CLIまたはSDKから実行する必要があります。